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Рассматриваются основные принципы и подходы к построению мультиструктурных систем на базе лингвистического процессора. 
Привлечен математический аппарат теории нечетких множеств для построения имитационной модели лингвистической системы. 


В настоящее время значительное повышение 
эффективности управления в различных сферах 
человеческой деятельности достигнуто за счет ис- 
пользования интеллектуальных систем, и ощути- 
мые результаты получены с помощью имитацион- 
ного моделирования. Особую значимость приобре- 
ли системы имитационного моделирования, осно- 
ванные на знаниях. Последние являются порожде- 
нием двух технологий: экспертных систем и имита- 
ционного моделирования, что позволило встраи- 
вать в разрабатываемое программное обеспечение 
большую часть необходимого знания и эксперти- 
зы. Использование таких систем предоставляет 
разработчику выполнение имитационных исследо- 
ваний корректно и без специального обучения в 
различных областях знаний. 

Применение современных подходов и новей- 
ших средств вычислительной техники привело к 
зарождению «экспериментирующей теоретической 
лингвистики»: той, которая пытается построить 
действующие модели языка и речи не для ограни- 
ченного языкового материала, а для всей языковой 
способности человека в целом, на каком бы языке 
он ни говорил [1]. 

Существующие модели понимания в вычисли- 
тельной лингвистике ограничены, главным обра- 
зом, из-за отставания от современного уровня тео- 
ретического языкознания. Попытки формализо- 
вать интеллектуальную деятельность человека при- 
вели к постановке фундаментальной лингвистиче- 
ской задачи, состоящей в моделировании его язы- 
кового поведения, т. е. построения функциональ- 
ной кибернетической модели естественного языка 
(ЕЯ). Если обозначить множество текстов через 
(Т), а множество выражаемых ими смыслов через 
(С), то модель ЕЯ можно определить как трансля- 
тор, устанавливающий соответствие между этими 
двумя множествами: (Т) — >(С) [2]. 

Формальные модели языка, разрабатывающие- 
ся в последнее время, все чаще рассматриваются 
как компоненты различных прикладных систем. 
Один из классов таких систем образуют информа- 
ционно-поисковые системы (ИПС), ориентиро- 
ванные на естественно-языковое общение с поль- 
зователем. Подобные ИПС могут использоваться в 
качестве консультанта - например, в области зако- 
нодательства, медицины или любой другой пред- 
метной области, для которой характерно наличие 
большого количества информации, представлен- 


ной документами на естественном языке. Поэтому 
разработка систем, способных понимать ЕЯ счита- 
ется «основной целью исследований в области ис- 
кусственного интеллекта». 

Вычислительную среду, реализующую фор- 
мальную лингвистическую модель и способную ра- 
ботать с ЕЯ во всем его объеме, будем называть 
лингвистическим процессором (ЛП). В современ- 
ной информатике лингвистическими процессора- 
ми называются и другие средства переработки тек- 
стовой информации на ЕЯ, в том числе и не рас- 
считанные на работу с ЕЯ в полном объеме. 
Определим две основные функции ЛП: 

- извлечение смысла из заданного текста (моде- 
лирование понимания, анализ); 

- выражение заданного смысла текстом на ЕЯ 
(моделирование производства текстов, синтез). 
Разрабатываемый лингвистический процессор 

может быть выполнен в виде библиотеки, доступ- 
ной различным приложениям и не взаимодей- 
ствующей напрямую с пользователем. Однако вы- 
бранный способ построения синтаксического ана- 
лизатора требует, чтобы этот блок был выполнен в 
виде отдельной библиотеки. Таким образом, реаль- 
ная структура разработанного продукта имеет вид, 
представленный на рис. 1. 

Заметим, что связь между модулями БЕ- 
МО.ЕХЕ и ЕР.БЕБ реализуется статическим им- 
портом, а между ЬР. ОБЬ и ЗУЫТ.БББ - динамиче- 
ским, что позволяет модифицировать ЗУЫТ.БББ 
без выхода из программы БЕМО.ЕХЕ. 

В рассматриваемом примере используется про- 
стейший лексический анализатор, он выполняет 
вспомогательные функции, не имеет возможности 
настройки или взаимодействия с пользователем и 
поэтому реализован как часть блока морфологиче- 
ского анализа. 

Блок лексического анализа принимает исход- 
ный текст непосредственно от элементов пользова- 
тельского интерфейса - а именно, от текстового 
редактора. Анализируемое предложение попадает 
на вход лексического анализатора в виде массива 
АЗСІІ-символов, содержащего прописные и строч- 
ные буквы русского алфавита, цифры, знаки пунк- 
туации. Указатели на все сформированные таким 
образом строки анализатор заносит в выходной ди- 
намический массив, который является результатом 
его работы. 
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Рис. 1 . Структурная схема ЛП для поисковой системы 


Среди методов морфологического анализа, ис- 
пользующихся в лингвистических процессорах, 
можно выделить методы с декларативной и с про- 
цедурной ориентацией. Для методов декларативной 
ориентации характерно наличие полного словаря 
всех возможных словоформ для каждого слова. При 
этом каждая словоформа снабжается полной и од- 
нозначной морфологической информацией, куда 
входят как постоянные, так и переменные морфо- 
логические параметры. Задача морфологического 
анализа в этом случае сводится к поиску нужной 
словоформы в словаре и копированию морфологи- 
ческой информации, соответствующей найденной 
словоформе, в программу. В процедурных методах 
каждое слово разделяется на основу и аффикс 
(окончание и, возможно, суффикс), и словарь со- 
держит только основы слов вместе со ссылками на 
соответствующие строки в таблице возможных аф- 
фиксов. Блок морфологического анализа реализо- 
ван в файле МОКРНО.РА8, входящем в состав ис- 
ходных текстов модуля БР.ОІХ. В этом файле при- 
сутствуют не только функции морфологического 
анализа, но и средства поддержки и редактирова- 
ния словарных файлов, необходимых анализатору. 
Файлы ЕШІШ8.ТВБ и ЕХЕРТКЖТВЬ также 
загружаются в память во время инициализации 
блока морфологического анализа. В памяти они 
хранятся в виде двух массивов текстовых строк, 
считанных из соответствующих файлов. 

Блок синтаксического анализа реализован в 
файлах 5У1ЧТАХ.РА8 и (ШБЕКРАК Первый из них 
реализует поддержку общих механизмов синтакси- 
ческого анализатора, а второй - описания конкрет- 
ных правил, используемых при анализе. Таким об- 


разом, файл ІШЕЕ8.РА8 можно рассматривать как 
своего рода «словарь» правил синтагматики. 

Анализатор позволяет использовать две основ- 
ных стратегии, отличающиеся последовательно- 
стью применения правил - а значит, и последова- 
тельностью обхода дерева вариантов разбора. 

При анализе «по приоритетам» на очередной 
итерации выбирается одно рабочее правило и дела- 
ется попытка его применения поочередно в каждой 
позиции анализируемого предложения. Как только 
применение правила окажется успешным, перебор 
правил начинается сначала. Последовательность 
использования правил анализа задается жестко с 
помощью системы приоритетов: чем выше прио- 
ритет данного правила, тем раньше оно будет ис- 
пробовано. Отдельные правила можно временно 
«выключать» из анализа, устанавливая их приори- 
тет равным нулю. 

Другая стратегия анализа - «по порядку слов» - 
опирается на последовательность слов в анализиру- 
емом предложении. На очередной итерации устана- 
вливается фиксированная рабочая позиция в пред- 
ложении, и в этой позиции поочередно испытыва- 
ются все правила анализа. Как только одно из пра- 
вил сработает, обход предложения начинается сна- 
чала. (Последовательность применения правил в ра- 
бочей позиции определяется той же системой прио- 
ритетов.) Начинается работа синтаксического ана- 
лизатора с инициализации списка правил (т. е. его 
сортировки по приоритетам) и очистки протокола. 
Протокол - вспомогательная структура данных ти- 
па стек, которую анализатор использует для реги- 
страции формируемых им текстовых единиц. Каж- 
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дая сформированная текстовая единица (ТЕ) потен- 
циально является узлом дерева альтернатив синтак- 
сической структуры. Регистрация этих узлов позво- 
ляет гарантировать, что никакая ветвь дерева аль- 
тернатив не будет пропущена или пройдена дважды. 

Поскольку синтаксический анализ больших 
предложений может занимать достаточно продол- 
жительное время, механизм анализатора предусма- 
тривает возможность принудительного ограниче- 
ния времени анализа. Если к моменту истечения 
этого времени сформировать синтаксическую 
структуру предложения не удалось, анализатор вы- 
дает на выход «лучший» из всех частичных вариан- 
тов, которые ему удалось найти. В качестве лучше- 
го берется вариант, содержащий наименьшее число 
текстовых единиц верхнего уровня. 

Наиболее простым и универсальным средством 
представления знаний в системах искусственного 
интеллекта является семантическая сеть. В общем 
случае она представляет собой ориентированный 
граф, вершины которого обозначают сущности 
(объекты), а ребра - отношения (связи) между ни- 
ми. Имена вершин и ребер обычно совпадают с 
именами соответствующих сущностей и отноше- 
ний, используемыми в естественном языке. Ребро 
и две связываемые им вершины представляют ми- 
нимальную смысловую информацию - факт нали- 
чия связи определенного типа между соответ- 
ствующими объектами. 

По роду хранимой информации выделяют два 
типа семантических сетей: А-сети (концептуаль- 
ные, интенсиональные) и К-сети (фактуальные, 
экстенсиональные). Первые содержат множество 
объектов и отношений, допустимых в данной пред- 
метной области; вторые - множество объектов и 
отношений, присутствующих в описании конкрет- 
ной ситуации. 

Для выделения в семантической сети некото- 
рых законченных фрагментов используется поня- 
тие семантического пространства. Это понятие 
аналогично скобкам в математике. Если предста- 
вить семантическую сеть в виде кортежа 
5=<Ѵ, Ѵ>, 

где V— множество вершин, V— множество ребер, то 
семантическое пространство можно обозначить как 
Р=<\Ѵ, 1Г>, 

где ]Ѵ={ Ѵ,{РУі, II' Н II, Ѵ'Н V, (Д) - множество всех 
семантических пространств, вложенных в про- 
странство Р. 

Задачей семантического анализатора ЛП явля- 
ется преобразование синтаксического дерева зави- 
симостей в соответствующий фрагмент К-сети. 
При этом может выполняться проверка допустимо- 
сти каждого семантического отношения по опор- 
ной А-сети. 

Из множества слов русского языка по семанти- 
ческим признакам можно выделить следующие ка- 
тегории рис. 2. 



Рис. 2. Классификация слов русского языка по семантиче- 
ским категориям 


Для лингвистического процессора, предназна- 
ченного для работы в составе ИПС, наиболее важ- 
ной является обработка предикатов действия и их 
возможных актантов - понятий, характеристик и 
их значений, а также числительных. Обработка 
функциональных и пустых предикатов может быть 
сведена к модификации фрагментов семантиче- 
ской сети, построенных для зависящих от них пре- 
дикатов действия. Словарная поддержка семанти- 
ческого анализа включает в себя: словарь моделей 
управления (файл СМСЮЕЕ.ТВЕ), словарь мета- 
понятий (файл МЕТАЖЖО.ТВЬ) и словарь се- 
мантических ролей (файл ЗЕМКОЕЕ.ТВЬ). 

Поиск в базе данных выполняется на основе 
совпадения (или некоторого соответствия) семан- 
тических структур пользовательского запроса и хра- 
нимого документа. Организованный таким спосо- 
бом поиск (будем называть его семантическим) 
обеспечивает гораздо более высокую точность и 
полноту, чем традиционный поиск по ключевым 
словам. Однако реализация семантического поис- 
ка, очевидно, является существенно более трудоем- 
кой, чем реализация поиска по ключевым словам. 
Наиболее сложным для разработки элементом 
здесь является именно лингвистический процессор. 

Обычно говорят о понимании текстов в слабом 
или сильном смысле. Понимание в слабом смысле 
имеет место только тогда, когда обрабатываемый 
текст может быть перефразирован средствами того 
же самого или другого языка. Это обстоятельство 
нашло отражение в системах, использующих не- 
четкие правила. Неясность, неопределенность или 
неточность, заключенные в смысловых значениях 
или выводах, присущи естественным языкам. В об- 
щем случае различают три типа неточностей: 

- неопределенность, когда некоторое понятие при- 
менимо к множеству разнообразных ситуаций; 

- неоднозначность, когда оно описывает нес- 
колько различимых понятий; 

- неясность, когда нет точно определенных гра- 
ниц понятий. 
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Нечеткое множество служит представлением 
всех трех типов нечеткостей. 

Для моделирования понимания в обоих смы- 
слах в любых системах, претендующих на глубокую 
переработку естественно-языковых текстов, 
необходимо иметь особый уровень представления 
высказываний, который можно назвать семантиче- 
ским. Он задается формальным семантическим 
языком. Для того чтобы соотнести с вычислитель- 
ной системой такие виды умственной деятельности 
человека, как размышление и понимание, нужно 
решить следующие задачи: 

- уметь хорошо представлять с помощью аб- 
страктных моделей, отражающих семантику 
объекта, знания и способности человека к ре- 
шению задач; 

- описать семантику с помощью хорошо опреде- 
ленного синтаксиса. 

В противоположность абстракции семантика 
должна быть реалистичной и прагматичной, чтобы 
с ее помощью можно было справиться с конкрет- 
ной ситуацией в реальном мире. 

Одним из вариантов создания имитационной 
лингвистической модели системы, входящей в со- 
став ЛП, может быть следующая реализация. 

Пусть поведение рассматриваемой динамиче- 
ской системы описывается дифференциальным 
уравнением 

СІ у = Кі,У,р), ( 1 ) 

а( 

где р - вектор параметров правой части уравнения. 
В общем случае этот вектор не известен и может 
изменяться по неопределенному закону. На прак- 
тике часто известно множество К, которому при- 
надлежат возможные значения ре К. В этом случае 
целесообразно заменить ур. (1) на дифференциаль- 
ное включение 

СІ у = Р(і,уЛ)- (2) 

аі 

Если различные точки множества О как воз- 
можные реализации К неравноправны, то множе- 
ство К можно считать нечетким [3]. По принципу 
обобщения Заде функция /(/д) продолжается на се- 
мейство нечетких множеств Р( ), т. е. в правой ча- 
сти (2) получаем нечеткое множество. Таким обра- 
зом, можно ввести понятие решения нечеткого 
дифференциального включения типа (2) через по- 
нятие множества уровня. 

Мультиструктура ЛП представляет собой мно- 
гоуровневый преобразователь. В нем различают 
три уровня пофразного представления текста - 
морфологический, синтаксический и семантиче- 
ский. Каждый из уровней обслуживается соответ- 
ствующими компонентами модели - массивом 
правил и определенным словарем или словарями. 
На каждом из уровней предложение имеет фор- 
мальный образ, именуемый в дальнейшем его 
структурой- морфологической (МорфС), синтак- 


сической (СинтС) и семантической (СемС). В це- 
лом работу модели при анализе можно представить 
структурной схемой, представленной на рис. 3. 
Синтез представляет собой обратный переход от 
СемС предложения к его записи в обычном орфо- 
графическом виде. 

Под морфологической структурой понимается 
последовательность входящих в анализируемое 
предложение слов с указанием части речи и морфо- 
логических характеристик (падежа, числа, рода, 
одушевленности и т. п.). 

Под синтаксической структурой понимается 
дерево зависимостей, в узлах которого стоят слова 
данного естественного языка с указанием части ре- 
чи и грамматических характеристик, а дуги соот- 
ветствуют специфичным для данного естественно- 
го языка отношениям синтаксического подчине- 
ния. 

Под семантической структурой понимается де- 
рево зависимостей, в узлах которого стоят либо 
предметные имена, либо слова универсального се- 
мантического языка. 



Рис. 3 . Структурная схема работы модели 


Таким образом, чтобы построить ЛП указанно- 
го типа, необходимо разработать: 

- формальные языки для записи (образов) пред- 
ложений на морфологическом, синтаксическом 
и семантическом уровнях представления; 

- формальное понятие структуры предложения 
для каждого из этих уровней; 

- массивы правил для преобразования структур 
смежных уровней друг в друга; 

- морфологический, комбинаторный и семанти- 
ческий словари, включив в них всю информа- 
цию о каждой лексеме, необходимую для осу- 
ществления соответствующего преобразования. 
Для реализации многоязычного ЛП, такую ра- 
боту следует выполнить для каждого из участвую- 
щих в нем ЕЯ, а чтобы получить полифункцио- 
нальный ЛП, необходимо постоянно пополнять 
его средствами решения каждой очередной задачи, 
если они специфичны для нее. Так, для автомати- 
зации перевода с одного ЕЯ на другой ЛП должен 
быть дополнен соответствующим массивом правил 
перевода. 
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